浅谈数据质量(DQ)
点击上方 "蓝色"关注, “星标”一起成长
点击加我wx, 可以一起成长
1、准确性:数据不正确或描述对象过期
2、合规性:数据是否以非标准格式存储
3、完备性:数据不存在
4、及时性:关键数据是否能够及时传递到目标位置
5、一致性:数据冲突
6、重复性:记录了重复数据
数据真实性:数据必须真实准确的反映客观的实体存在或真实的业务,真实可靠的原始统计数据是企业统计工作的灵魂,是一切管理工作的基础,是经营者进行正确经营决策必不可少的第一手资料。
数据准确性:准确性也叫可靠性,字段值缺失,空值。是用于分析和识别哪些是不准确的或无效的数据,不可靠的数据可能会导致严重的问题,会造成有缺陷的方法和糟糕的决策。
数据唯一性:用于识别和度量重复数据、冗余数据。重复数据是导致业务无法协同、流程无法追溯的重要因素,也是数据治理需要解决的最基本的数据问题。
数据完整性:数据完整性问题包括:模型设计不完整,例如:唯一性约束不完整、参照不完整;数据条目不完整,例如:数据记录丢失或不可用;数据属性不完整,例如:数据属性空值。不完整的数据所能借鉴的价值就会大大降低,也是数据质量问题最为基础和常见的一类问题。
数据一致性:多源数据的数据模型不一致,例如:命名不一致、数据结构不一致、约束规则不一致。数据实体不一致,例如:(数据量条数)数据编码不一致、命名及含义不一致、分类层次不一致、生命周期不一致……。相同的数据有多个副本的情况下的数据不一致、数据内容冲突的问题。
数据关联性:数据关联性问题是指存在数据关联的数据关系缺失或错误,例如:函数关系、相关系数、主外键关系、索引关系等。存在数据关联性问题,会直接影响数据分析的结果,进而影响管理决策。
数据及时性:数据的及时性(In-time)是指能否在需要的时候获到数据,数据的及时性与企业的数据处理速度及效率有直接的关系,是影响业务处理和管理效率的关键指标。
字段长度有效
字段内容有效
字段数值范围有效
枚举值集合有效
对主键是否存在重复数据的监控指标
字段是否为空或NULL
记录数是否丢失
记录数环比波动
录数波动范围
记录数方差检验
数值同比
数值环比
数值方差检验
表逻辑检查
表级别一致性检查
表级别质量监控指标,数据是否按时产出
最大值检查
最小值检查
平均值检查
汇总值检查
用户写自定义SQL实现的监控规则
数据质量问题的量化
大家都在看,建议先收藏:
字节跳动ClickHouse在用户增长分析场景的应用
数据中台建设方法论、技术体系、组织架构
SQL 语法速成手册,yyds!
空空(渣渣空),空杯的空。7年大数据、数仓开发经验,目前就职于一线大厂,校招入职国企、后经历外包、中小企业,先后涉猎电信、电商、金融、教育、直播等领域。期待与大佬们交个朋友,一起聊技术、赚钱、谈人生、搞事情。